GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来
这“内生性交流小组”的第一篇入门性文章,这个小组主要是学习、交流“内生性”问题处理的Club,当然里面只准讨论内生性相关问题,因为这是圈子专业属性使然。欢迎你先加入“计量经济圈社群”(看文后),然后进入这个交流小组。
正文
所谓矩条件,就是一个同时含有随机变量和待估计参数的式子,经济理论告诉我们,它的期望等于0。矩条件最常见的形式是:E{工具变量*残差}=0。GMM估计就是在一个限定的范围内寻找参数,使这个我们在理论上认为正确的等式填入数据后尽可能接近于0。按照我的理解,GMM不仅是一种估计方法,还是一个计量经济学有经典框架,我们能想到的大多数经典估计方法,OLS、GLS、2SLS、MD、QR、MLE、QMLE等等,都可以写成GMM的形式。
另一个与之匹敌的经典框架是极值估计(extreme estimation)。粗略地说,两者的差别在于:前者是寻找参数,使矩条件尽可能被满足;后者是寻找参数,最大化或最小化一个目标函数(求极值)。简而易见的是,两种方法在算术上基本是等价的,因为任何一个极值函数的一阶条件都是矩条件,而GMM中的目标函数——矩条件经验期望的二次型——本身又是一个极值函数。但是,两者在算法上并不等价。
老朱在评论林文夫(Fumio Hayashi)教授那本有名的教科书时说,“GMM的概念很优美,也可以应用到很多问题上。一般化的概念虽然适用性广,还是有代价的。”这里的代价,我猜测,就是指GMM经常算不出来——由于矩条件本身的特点,GMM的目标函数经常是接近锯齿状的(piecewise constant),在这种情况下,GMM会陷在局部最优里,达不到全局最优。分位数回归(quantile regression)就是一个这样的例子。不过,GMM在很多时候还是有用的,而且算起来特别快,所以还是有讨论的必要。首先我们要问,在GMM估计中,矩条件是不是最多越好?在大样本下,基本上是这样——矩条件越多,GMM估计的渐近效率就越高。
说“基本上”是因为:第一,这些矩条件必须都是成立的;第二,矩条件的数目相对于样本数要趋向于0。如果矩条件数与样本数是等阶的,会造成“过度拟合”的问题。形象地说,我们本来要用工具变量来应付内生性问题,但是工具变量太多了,以至于几乎把内生变量完全拟合了出来,那么即使工具变量是外生的,也会导致估计量不一致。而在小样本下,过多的矩条件会造成可怕的高阶偏误,并且矩条件非线性的程度越高,偏误就越大。
要注意的是,这个问题与“弱工具变量问题”并不等价。即使这些工具变量整体上不弱,甚至每个都不弱,过多的矩条件还是会造成严重的小样本偏误。这里其实涉及到GMM估计的高阶偏误问题,其核心是由GMM目标函数的“非线性”特征造成的。当矩条件的数目很多,矩条件本身又是非线性的时候,这个问题就愈加严重;但即使没有“矩条件过多”的问题,GMM仍然存在不可忽视的小样本偏误。在实践中,我们可以用几种方法来减轻这一问题。
第一,检验矩条件(或工具变量)是否成立。“过度识别检定”(overidentification test,OIT)可以被用检验某一组矩条件是否成立,前提是去除待检验的矩条件后,剩余的矩条件数目仍大于等于待估计参数的维度。
第二,选择“最有效率”的工具变量。给定一个理论上有效的工具变量Zi,我们可以通过简便的方法找出Zi的某种最优的函数形式f*(Zi),把f*(Zi)放入矩条件会使得估计量的渐近方差比放入其他f(Zi)要小。这么做可以尽可能地利用Zi中的信息,而不必将不同函数形式的Zi写成并列的几个矩条件。
第三,在所有成立的矩条件中选择一组最优的矩条件。用任意组合的矩条件进行估计,看其中哪一组矩条件得到的估计量的“经验均方误”最小。最后,我们还可以用Fuller、HFUL等K-class估计量或LIML、CUE等经验似然估计量来进行估计,然后用Bekker估计量校正其标准误。这些估计量可以在很大程度上减小偏误,即使无法完全消除它。如果嫌上面这些方法都太麻烦,那么为了对得起自己的良心,在GMM估计中我们至少要关心下面这些问题:
1. 寻找(理论的或经验的)论据支持某一工具变量或矩条件是成立的。
2. 线性的矩条件往往要比非线性的要好。
3. 矩条件的数目要远小于观察值的数目。
4.任何一个矩条件都应该通过“过度识别检定”(若该检定是可能的),否则就不能认为它是外生的。
5.多放和少放一个同类型的工具变量,估计结果不应受到很大影响。否则,任何一个结果都是不可信的。
再给大家附一篇个人认为比较好的GMM介绍文章
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群信息。